利用統計方法及中文訓練資料處理台語文詞性標記 (Modeling Taiwanese POS tagging with statistical methods and Mandarin training data) [In Chinese]

نویسندگان

  • Un-Gian Iunn
  • Chia-Hung Tai
  • Kiat-Gak Lau
  • Keh-Jiann Chen
  • Cheng-Yan Kao
چکیده

In this paper, we propose a POS tagging method using more than 60 thousand entries of Taiwanese-Mandarin translation dictionary and 10 million words of Mandarin training data to tag Taiwanese. The literary written Taiwanese corpora have both Romanization script and Han-Romanization mixed script, the genre includes prose, fiction and drama. We follow tagset drawn up by CKIP. We develop word alignment checker to help the two scripts word alignment work, and then lookup Taiwanese-Mandarin translation dictionary to find the corresponding Mandarin candidate words, select the most suitable Mandarin word using HMM probabilistic model from the Mandarin training data, and finally tag the word using MEMM classifier. We achieve an accuracy rate of 91.49% on Taiwanese POS tagging work, and analysis the errors. We also get the preliminary Taiwanese training data.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

以語料為基礎的中文語篇連貫關係自動標記 (Corpus-Based Coherence Relation Tagging in Chinese Discourse) [In Chinese]

近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、 同義詞詞林 (The-saurus)、 詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可抵擋的趨勢。其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利用之一項詞彙語意資源。然而, 詞彙網路之建構是一項耗時費力之基礎工程。 對於世界上許多使用頻度不高的語言而言, 更是一項艱鉅之任務。 本文提出一個借力於普林斯頓英語詞網(Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrap-ping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。 實驗的結果與初步評估證明, 此法...

متن کامل

大規模詞彙語意關係自動標示之初步研究: 以中文詞網(Chinese Wordnet)為例 (A Preliminary Study on Large-scale Automatic Labeling of Lexical Semantic Relations: A Case study of Chinese Wordnet) [In Chinese]

近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。 對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、 同義詞詞林 (Thesaurus)、 詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可 抵擋的趨勢。 其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利 用之一項詞彙語意資源。 然而, 詞彙網路之建構是一項耗時費力之基礎工程。 對於世界上許多使 用頻度不高的語言而言, 更是一項艱鉅之任務。 本文提出一個借力於普林斯 頓英語詞網 (Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrapping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。 實 驗的結果與初步評估證明, 此法對於詞網建構是一個相當可行的方式。

متن کامل

使用韻律階層及大量詞彙的中文文轉音系統 (A Mandarin Text-to-Speech System Using Prosodic Hierarchy and a Large Number of Words) [In Chinese]

余明興、張唐瑜、許燦煌、蔡育和 國立中興大學資訊科學所 [email protected], [email protected], [email protected], [email protected] 摘要 本論文實作了一個中文的文轉音系統(Test-to-Speech)系統,它使用大量的詞彙來做為合成單 元(Synthesis units),並且配上適當的韻律階層。韻律階層可以使語意更加清晰,也可以幫助選取 適當的合成單元。因此本篇論文主要包含兩個重點:韻律階層的求取和以大量詞彙作為合成單元 的架構,在韻律階層的求取上,我們實驗了利用剖析器為基礎的方法以及著名的統計式方法 -CART(Classification And Regression Trees)來進行求取。我們使用大量詞彙來當成我們的合成單 元,可以免去許多語音處理不易...

متن کامل

使用關聯法則為主之語言模型於擷取長距離中文文字關聯性 (Association Rule Based Language Models for Discovering Long Distance Dependency in Chinese) [In Chinese]

摘要 本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關 聯性,擷取的方式是使用資料探勘中十分流行的 Apriori 演算法,傳統上 n-gram 語言模型只能在 n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因 此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克 服 n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中 一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與 詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性, 可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法 比起傳統觸發序對獲得較低的 perplexity,此關聯法則技術也可以有效的與其他 模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效 果,最後本論文也將提出的語...

متن کامل

Automatic labeling of troponymy for Chinese verbs

以同義詞集與詞彙語意關係架構而成的詞彙知識庫,如英語詞網 (Wordnet)、歐語詞 網 (EuroWordnet)等,已有充分的研究,詞網的建構也已相當完善。基於相同的目的,中 研院語言所亦已建立大規模之中文詞彙網路 (Chinese Wordnet,CWN),旨在提供完整的 中文辭彙之詞義區分。然而,在目前之中文詞彙網路系統中,由於目前主要是採用人為判 定來標記同義詞集之間的語意關係,因此這些標記之數量尚未達成可行應用之一定規模。 因此,本篇文章特別針對動詞之間的上下位詞彙語意關係 (Troponymy),提出一種自動標 記的方法。我們希望藉由句法上特定的句型 (lexical syntactic pattern),建立一個能夠自 動抽取出動詞上下位的系統。透過詞義意判定原則的評估,結果顯示,此系統自動抽取出 的動詞上位詞,正確率將近百分之七十。本研究盼能將本方法應用於正在發展中...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008